期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 面向视觉问答的跨模态交叉融合注意网络
王茂, 彭亚雄, 陆安江
《计算机应用》唯一官方网站    2022, 42 (3): 854-859.   DOI: 10.11772/j.issn.1001-9081.2021030470
摘要269)   HTML8)    PDF (759KB)(82)    收藏

为了提高视觉问答(VQA)模型回答复杂图像问题的准确率,提出了面向视觉问答的跨模态交叉融合注意网络(CCAN)。首先,提出了一种改进的残差通道自注意方法对图像进行注意,根据图像整体信息来寻找重要区域,从而引入一种新的联合注意机制,将单词注意和图像区域注意结合在一起;其次,提出一种“跨模态交叉融合”网络生成多个特征,将两个动态信息流整合到一起,每个模态内产生有效的注意流,其中对联合特征使用逐元素相乘的方法。此外,为了避免计算成本增加,网络之间共享参数。在VQA v1.0数据集上的实验结果表明,该模型的准确率达到67.57%,较MLAN模型提高了2.97个百分点,较CAQT模型提高了1.20个百分点。所提方法有效提高了视觉问答模型的准确率,具有有效性和鲁棒性。

图表 | 参考文献 | 相关文章 | 多维度评价